#import "@preview/touying:0.6.1": *
#import themes.aqua: *
#import "@preview/pinit:0.2.2": *

#show: aqua-theme.with(
  aspect-ratio: "16-9",
  config-info(
    title: [概率论],
    subtitle: [Subtitle],
    author: [数学主义],
    date: datetime.today(),
    institution: [Institution],
  ),
)
#set text(font: ("Calibri", "Microsoft YaHei"), weight: "regular", size: 25pt)

#title-slide()

#outline-slide()

= 回顾
---
*注意：本节内容并不保证严谨！！！*

== 随机变量及其分布
<随机变量及其分布>
- 设$Omega$是样本空间，那么任何映射$X : Omega arrow.r bb(R)$都称为#strong[随机变量]。

- 如果映射$X$的像$X \( Omega \)$是至多可列集,
  就说$X$是#strong[离散]随机变量.

- 如果映射$X$的像$X \( Omega \)$是一个区间,
  就说$X$是#strong[连续]随机变量.

设$Omega$是样本空间，而$P$是其上的概率。若$X : Omega arrow.r bb(R)$是随机变量，则称函数
$ F : bb(R) arrow.r \[ 0 \, 1 \] \, quad x mapsto P \( X lt.eq x \) $
为$X$的#strong[分布函数]，
其中$P \( X lt.eq x \)$是$P \( { s in Omega : X \( s \) lt.eq x } \)$的简写。
---
设$X : Omega arrow.r bb(R)$是离散随机变量，并且$X$的像为
$ X \( Omega \) = { x_i : i = 1 \, 2 \, dots.h \, n \, dots.h } \, $
则称数列
$ p_i := p \( x_i \) := P \( X = x_i \) \, quad i = 1 \, 2 \, dots.h \, n \, dots.h $
为$X$的#strong[分布列]。
---
如果连续随机变量$X$的分布函数是$F$，而且存在非负可积函数$p : bb(R) arrow.r bb(R)$使得对任意$x in bb(R)$都有
$ F \( x \) = integral_(- oo)^x p \( t \) d t \, $ 我们就说 $p$ 是 $X$
的#strong[密度函数]。

== 广义函数 $delta$：用"密度"看离散随机变量
<广义函数-delta用密度看离散随机变量>
前面我们看到，离散随机变量用#strong[分布列]
$p \( x_i \) = P \( X = x_i \)$
描述，而连续随机变量则用#strong[密度函数] $p \( x \)$ 描述，满足
$F \( x \) = integral_(- oo)^x p \( t \) thin d t$。这两种描述方式看起来很不一样，一个是一串"点上的概率"，另一个是"曲线下面积"。

---
但其实可以统一起来，只要我们允许"密度"包含一种特殊的对象：Dirac 的
$delta$ 函数。它的上古定义如下：
$ delta \( x \) = cases(delim: "{", oo \, & upright("若") thin x = 0 \,, 0 \, & upright("若") thin x eq.not 0 \,) $
而且$integral_(bb(R)) delta \( x \) d x = 1$.

严格来说，$delta$
不是一个普通函数，而是一种#strong[广义函数]。但我们不需要深入泛函分析，只需利用它的两个关键性质：
---

1. 对任意连续函数 $f$，
  $ integral_(- oo)^oo f \( x \) thin delta \( x - a \) thin d x = f \( a \) . $
  这说明 $delta \( x - a \)$ 在积分中能"提取"函数在 $x = a$
  处的值。特别地：
  $ integral_(- oo)^oo delta \( x - a \) thin d x = 1 . $
---
2. 考虑单位阶跃函数（Heaviside 函数）
  $ H_a \( x \) = cases(delim: "{", 0 \, & x < a \,, 1 \, & x gt.eq a \,) $
  它在 $x = a$ 处有一个跳跃。虽然 $H_a \( x \)$
  在通常意义下不可导，但在广义函数的意义下，它的导数就是
  $delta \( x - a \)$：
  $ frac(d, d x) H_a \( x \) = delta \( x - a \) . $
---
  换句话说，在#strong[一个跳跃大小为 $c$ 的间断点，其导数就是
  $ c thin delta \( x - a \) $]

#strong[直观理解 $delta \( x - a \)$：]
想象一个"无限高、无限窄、但总面积为 1"的尖峰，集中在点 $x = a$ 处。
---
假设某道判断题只有两个可能得分：0 分或
10 分，且 $ P \( X = 0 \) = 0.3 \, quad P \( X = 10 \) = 0.7 . $
它的分布列是 $p \( 0 \) = 0.3$, $p \( 10 \) = 0.7$.
如果我们强行写出一个"密度" $p_X \( x \)$，就可以写成：
$ p_X \( x \) = 0.3 thin delta \( x - 0 \) + 0.7 thin delta \( x - 10 \) . $
---
验证一下：对任意 $x$，
$ F \( x \) = P \( X lt.eq x \) = integral_(- oo)^x p_X \( t \) thin d t = 0.3 integral_(- oo)^x delta \( t \) thin d t + 0.7 integral_(- oo)^x delta \( t - 10 \) thin d t . $
根据 $delta$
的性质，$integral_(- oo)^x delta \( t - a \) thin d t = cases(delim: "{", 0 \, & x < a \,, 1 \, & x gt.eq a \,)$
所以
$ F \( x \) = cases(delim: "{", 0 \, & x < 0 \,, 0.3 \, & 0 lt.eq x < 10 \,, 1 \, & x gt.eq 10 \,) $
---

更一般地，如果离散随机变量 $X$ 的取值为
${ x_i }_(i = 1)^oo$，对应的概率为
$p_i = P \( X = x_i \)$，那么我们可以形式地定义它的"密度"为
$ p_X \( x \) = sum_(i = 1)^oo p_i thin delta \( x - x_i \) . $
这样一来，#strong[无论是离散还是连续随机变量，都可以用"密度函数"
$p_X \( x \)$ 来统一表示]，而分布函数总是
$ F \( x \) = integral_(- oo)^x p_X \( t \) thin d t . $ 无论 $X$
是离散还是连续，我们都可以#strong[统一地说]：

#block[
#strong[密度函数 $p_X \( x \)$ 就是分布函数 $F \( x \)$
的（广义）导数。]

]
---
#strong[为什么这样做有用？]
这种统一视角在后续学习中非常方便。例如，当我们讨论#strong[特征函数]（下一节内容）时，离散和连续情形的公式将变得几乎一模一样，只需把求和换成积分——而有了
$delta$ 函数，求和本身就是一种特殊的积分！
---
#strong[使用提醒：] $delta \( x \)$
本身不能像普通函数那样画出图像或逐点计算，但它在#strong[积分运算]和#strong[作为导数]这两个框架下有清晰、一致的规则。我们把它当作一种强大的"语言工具"，让离散与连续的概率模型可以用同一套公式表达，从而简化理论、突出本质。

== 数学期望
<数学期望>
设离散随机变量$X : Omega arrow.r bb(R)$的分布列为
$ p \( x_i \) = P \( X = x_i \) \, quad i = 1 \, 2 \, dots.h.c \, n \, dots.h.c . $
如果(这就是说无穷级数绝对收敛)
$ sum_(i = 1)^oo \| x_i \| dot.op p \( x_i \) < oo \, $ 就说
$ E \( X \) colon.eq sum_(i = 1)^oo x_i dot.op p \( x_i \) $
是随机变量$X$的#strong[数学期望].
---
设连续随机变量$X : Omega arrow.r bb(R)$的密度函数为$p \( x \)$. 如果
$ integral_(- oo)^oo \| x \| dot.op p \( x \) d x < oo \, $ 就说
$ E \( X \) colon.eq integral_(- oo)^oo x dot.op p \( x \) d x $
是随机变量$X$的#strong[数学期望].

离散情形的期望是求和，连续情形是积分。但如果我们把离散变量的"密度"写成
$ p_X \( x \) = sum_(i = 1)^oo p \( x_i \) thin delta \( x - x_i \) \, $
那么它的期望就可以形式地写成
$ integral_(- oo)^oo x dot.op p_X \( x \) thin d x = integral_(- oo)^oo x (sum_(i = 1)^oo p \( x_i \) thin delta \( x - x_i \)) d x . $
进而
$ integral_(- oo)^oo x dot.op p_X \( x \) thin d x = sum_(i = 1)^oo p \( x_i \) integral_(- oo)^oo x thin delta \( x - x_i \) thin d x = sum_(i = 1)^oo p \( x_i \) dot.op x_i \, $
这正是离散情形的期望。
---
因此，无论 $X$ 是离散型还是连续型，只要我们把它的"广义密度"
$p_X \( x \)$ 写出来，数学期望都可以统一表示为：
$ #box(stroke: black, inset: 3pt, [$ bb(E) \[ X \] = integral_(- oo)^oo x thin p_X \( x \) thin d x $]) . $

这个公式看起来和连续情形一样，但它自动包含了离散情形。
---
#strong[举个例子]： 假设某门课程的平时成绩 $X$ 有 20% 的同学缺交作业得 0
分，其余 80% 的同学成绩服从区间 $\[ 60 \, 100 \]$ 上的均匀分布。那么 $X$
是一个#strong[混合型]随机变量，其广义密度为
$ p_X \( x \) = 0.2 thin delta \( x \) + 0.8 dot.op 1 / 40 dot.op upright(bold(1))_(\[ 60 \, 100 \]) \( x \) \, $
其中 $upright(bold(1))_(\[ 60 \, 100 \]) \( x \)$ 是区间指示函数。

于是期望为
$ bb(E) \[ X \] = integral_(- oo)^oo x thin p_X \( x \) thin d x = 0.2 dot.op 0 + 0.8 dot.op integral_60^100 x dot.op 1 / 40 thin d x = 0 + 0.8 dot.op 80 = 64 . $

== 随机变量函数的数学期望
<随机变量函数的数学期望>
- 设离散随机变量$X : Omega arrow.r bb(R)$的分布列是$p \( x_i \)$

- 任给函数$g : bb(R) arrow.r bb(R)$,
  则$g \( X \) colon.eq g compose X : Omega arrow.r bb(R)$仍然是离散随机变量

- $g \( X \)$的数学期望是
  $ E \[ g \( X \) \] = sum_i g \( x_i \) dot.op p \( x_i \) $

---

- 设连续随机变量$X : Omega arrow.r bb(R)$的密度函数是$p \( x \)$

- 任给函数$g : bb(R) arrow.r bb(R)$,
  则$g \( X \) colon.eq g compose X : Omega arrow.r bb(R)$仍然是连续随机变量

- $g \( X \)$的数学期望是
  $ E \[ g \( X \) \] = integral_(- oo)^oo g \( x \) dot.op p \( x \) d x $

---

假设 $X$ 是离散型，分布列为
$p \( x_i \) = P \( X = x_i \)$，则其广义密度为
$ p_X \( x \) = sum_i p \( x_i \) thin delta \( x - x_i \) . $ 于是
$ integral_(- oo)^oo g \( x \) thin p_X \( x \) thin d x &= sum_i p \( x_i \) integral_(- oo)^oo g \( x \) thin delta \( x - x_i \) thin d x \ &= sum_i p \( x_i \) thin g \( x_i \) = bb(E) \[ g \( X \) \] . $

因此，对任意随机变量 $X$，只要其广义密度为 $p_X \( x \)$，就有统一公式：
$ #box(stroke: black, inset: 3pt, [$ bb(E) \[ g \( X \) \] = integral_(- oo)^oo g \( x \) thin p_X \( x \) thin d x $]) . $

== 边际分布
<边际分布>
我们可以从联合分布中提取单个变量的信息。

在联合分布列 ${ p_(i j) } colon.eq { P \( X = x_i \, Y = y_j \) }$ 中：
$ P \( X = x_i \) & = sum_(j = 1)^oo P \( X = x_i \, Y = y_j \) = sum_(j = 1)^oo p_(i j)\
P \( Y = y_j \) & = sum_(i = 1)^oo P \( X = x_i \, Y = y_j \) = sum_(i = 1)^oo p_(i j) $
分别称为 $X$ 和 $Y$ 的 #strong[边际分布列]。

如果 $\( X \, Y \)$ 是连续型随机变量，且有联合密度函数
$p \( x \, y \)$，那么我们可以对另一个变量积分，得到边际密度：

$ p_X \( x \) & = integral_(- oo)^oo p \( x \, y \) thin d y\
p_Y \( y \) & = integral_(- oo)^oo p \( x \, y \) thin d x $

#strong[直观理解：] 把 $p \( x \, y \)$
看成一个"三维地形图"，$p_X \( x \)$ 就是沿着 $y$
方向"切片"后对高度积分的结果，相当于"压扁"了 $y$ 维度。

---

如果我们把离散情形的联合分布列写成联合"密度"：
$ p_(X \, Y) \( x \, y \) = sum_(i = 1)^oo sum_(j = 1)^oo p_(i j) thin delta \( x - x_i \) thin delta \( y - y_j \) \, $
那么对 $y$ 积分会发生什么？

$ p_X \( x \) & = integral_(- oo)^oo p_(X \, Y) \( x \, y \) thin d y\
 & = integral_(- oo)^oo (sum_(i \, j) p_(i j) thin delta \( x - x_i \) thin delta \( y - y_j \)) d y\
 & = sum_(i \, j) p_(i j) thin delta \( x - x_i \) (integral_(- oo)^oo delta \( y - y_j \) thin d y)\
 & = sum_i (sum_j p_(i j)) delta \( x - x_i \) . $

注意最后的结果：它正是 $X$ 的边际广义密度！其中 $sum_j p_(i j)$
就是我们熟悉的"对第 $i$ 行求和"。

换句话说： 离散情形中"对行求和"，其实就是对包含 $delta$ 的联合密度关于
$y$ 做积分的结果。

因此，公式
$ p_X \( x \) = integral_(- oo)^oo p_(X \, Y) \( x \, y \) thin d y $
同时适用于离散和连续情形，只要我们允许密度中出现 $delta$ 函数。

== 二维随机变量函数的数学期望
<二维随机变量函数的数学期望>
若二维随机变量 $\( X \, Y \)$ 的分布由联合分布列
$P \( X = x_i \, Y = y_j \)$ 或联合密度函数 $p \( x \, y \)$ 给出，则
$Z = g \( X \, Y \)$ 的数学期望为：
$ E \( Z \) = cases(delim: "{", sum_i sum_j g \( x_i \, y_j \) P \( X = x_i \, Y = y_j \) \, & upright("离散情形") \,, integral_(- oo)^oo integral_(- oo)^oo g \( x \, y \) p \( x \, y \) thin d x thin d y \, & upright("连续情形") .) $

直观理解：把所有可能的结果 $g \( x_i \, y_j \)$
按照它们发生的可能性（概率）加权平均起来。

---

设 $\( X \, Y \)$
是一个二维随机向量。无论这是离散型还是连续型，我们都可以形式地写出它的#strong[联合广义密度]
$p_(X \, Y) \( x \, y \)$，使得对任意"好"的函数 $g$， 随机变量函数
$g \( X \, Y \)$ 的数学期望是
$ bb(E) \[ g \( X \, Y \) \] = integral.double_(bb(R)^2) g \( x \, y \) thin p_(X \, Y) \( x \, y \) thin d x thin d y . $

- 若 $\( X \, Y \)$ 是离散的，取值为 $\( x_i \, y_j \)$ 的概率为
  $p_(i j)$，则
  $ p_(X \, Y) \( x \, y \) = sum_(i = 1)^oo sum_(j = 1)^oo p_(i j) thin delta \( x - x_i \) thin delta \( y - y_j \) . $

- 若是连续的，则 $p_(X \, Y) \( x \, y \)$ 就是普通联合密度函数。

= 特征函数
== 复随机变量
<复随机变量>
接下来我们会遇到形如 $e^(i t X)$ 的表达式（其中 $t$
是实数，$i = sqrt(- 1)$）。这是一个#strong[复数值]的量，因此我们需要稍微扩展一下"随机变量"的概念。

#strong[定义：] 设 $X$ 和 $Y$
是定义在同一概率空间上的两个实值随机变量。我们称 $ Z = X + i Y $
为一个#strong[复随机变量]。

#strong[数学期望如何定义？] 如果 $E \( X \)$ 和 $E \( Y \)$
都存在（即绝对可积），我们就定义复随机变量 $Z = X + i Y$ 的期望为：
$ #box(stroke: black, inset: 3pt, [$ bb(E) \[ Z \] = bb(E) \[ X \] + i thin bb(E) \[ Y \] $]) . $

== 特征函数
<特征函数-1>
设 $X$ 是一个实随机变量，固定一个实数 $t$，考虑
$ Z = e^(i t X) = cos \( t X \) + i sin \( t X \) . $ 这里，实部是
$cos \( t X \)$，虚部是 $sin \( t X \)$，它们都是实随机变量。因此，
$ bb(E) \[ e^(i t X) \] = bb(E) \[ cos \( t X \) \] + i thin bb(E) \[ sin \( t X \) \] . $
---
这个以 $t in bb(R)$ 为自变量的函数
$ phi_X \( t \) = bb(E) \[ e^(i t X) \] = integral_(- oo)^oo e^(i t x) thin p_X \( x \) thin d x $
就是随机变量 $X$ 的#strong[特征函数]。

---

#strong[第193页定义 4.2.1 ：] 设 $X$ 是一个实值随机变量，则它的#strong[特征函数]定义为
$ #box(stroke: black, inset: 3pt, [$ phi_X \( t \) = bb(E) \[ e^(i t X) \] \, quad t in bb(R) . $]) $

注意：
$ #box(stroke: black, inset: 3pt, [$ upright("任意随机变量的特征函数总是存在的！") $]) $

---

特征函数就是随机变量分布密度函数的#strong[傅里叶变换]。而傅里叶变换的核心思想是：
- 信号或密度函数 $p_X$ 可以视为一个向量；
- 复指数函数 $e^(i t x)$ 可以视为频域中的基函数（类似于向量空间中的基向量）；
- 傅里叶变换 $phi_X \( t \)$ 实际上是 $p_X$ 与基函数 $e^(i t x)$ 的内积；
- 这个内积表示函数在特定频率 $t$ 上的投影，或者说是 $p_X$ 在频率 $t$ 的成分。

---

回忆上一节：我们已将任意随机变量的"密度"统一表示为广义函数
$p_X \( x \)$：若 $X$ 离散，取值 $x_k$ 的概率为 $p_k$，则
$ p_X \( x \) = sum_(k = 1)^oo p_k thin delta \( x - x_k \) . $

现在代入特征函数公式：
$ phi_X \( t \) = integral_(- oo)^oo e^(i t x) thin p_X \( x \) thin d x . $

可得：
$ phi_X \( t \) &= integral_(- oo)^oo e^(i t x) (sum_k p_k thin delta \( x - x_k \)) d x \ &= sum_k p_k integral_(- oo)^oo e^(i t x) thin delta \( x - x_k \) thin d x \ &= sum_k p_k thin e^(i t x_k) . $
---
因此，无论 $X$ 是离散还是连续，特征函数都可以统一写成：
$ #box(stroke: black, inset: 3pt, [$ phi_X \( t \) = integral_(- oo)^oo e^(i t x) thin p_X \( x \) thin d x $]) $
其中 $p_X \( x \)$ 是 $X$ 的广义密度。

== 唯一性定理
<唯一性定理>
#block[
*定理：*若两个随机变量 $X$ 和 $Y$ 的特征函数相同，即
$phi_X \( t \) = phi_Y \( t \)$ 对所有 $t in bb(R)$
成立，则它们的分布函数完全相同。

]
---
我们不讲证明，但可以用刚才的"向量与基函数"观点来理解为什么这是合理的。

回想：我们将密度函数 $p_X \( x \)$ 看作一个"无限维向量"，而复指数函数族
${ e^(i t x) : t in bb(R) }$ 构成了频域中的一组"基函数"。 特征函数
$phi_X \( t \) = integral e^(i t x) p_X \( x \) thin d x$
正是这个向量在每个基方向 $e^(i t x)$ 上的#strong[投影]（即内积）。
---
这就类似于：如果你知道一个三维向量在 $x$、$y$、$z$
三个坐标轴上的投影（分量），你就能唯一确定这个向量本身。
同样地，如果知道一个函数在#strong[所有频率] $t$ 上的投影
$phi_X \( t \)$，就相当于知道了它在整组"频域基"下的全部坐标，于是，这个函数（即分布的密度或广义密度）就被完全确定了！
---
即使对于离散分布（此时 $p_X$ 包含 $delta$ 函数），这个思想依然成立：

- 每个 $delta \( x - x_k \)$ 在频域中的"投影"就是 $e^(i t x_k)$；

- 特征函数 $sum p_k e^(i t x_k)$
  记录了所有这些点及其权重在各个频率下的叠加效果；

- 如果两个离散分布的特征函数处处相等，说明取值点和对应概率完全相同。

正因为如此，特征函数成为研究分布性质（尤其是极限行为）的强大工具：我们不需要直接操作复杂的分布函数，只需分析其"频域表示"
$phi_X \( t \)$ 即可。

== 弱收敛与特征函数的连续性
<弱收敛与特征函数的连续性>
#strong[定义：弱收敛（按分布收敛），书上第189页]

设随机变量序列 ${ X_n }$ 的分布函数为 $F_n \( x \)$，目标分布函数为
$F \( x \)$。如果对 $F \( x \)$ 的每一个#strong[连续点] $x$，都有
$ lim_(n arrow.r oo) F_n \( x \) = F \( x \) \, $ 则称 $F_n \( x \)$
#strong[弱收敛]于 $F \( x \)$，记作
$ F_n \( x \) arrow.r^W F \( x \) \, quad upright("或") quad X_n arrow.r^L X . $

#strong[直观理解：]
弱收敛不关心分布函数在跳跃点的行为（比如离散变量的取值点），只看它在"平滑区域"是否逐渐逼近目标分布。
这就像你在看一张模糊的照片慢慢变清晰，只要不是在边缘或突变处，整体形状就越来越像目标图像。

---

#strong[特征函数的连续性定理（第199页定理 4.2.6）]

#block[
分布函数序列 ${ F_n \( x \) }$ 弱收敛于 $F \( x \)$
的充要条件是：对应的特征函数序列 ${ phi_n \( t \) }$ 收敛于
$phi \( t \)$，即
$ phi_n \( t \) arrow.r phi \( t \) \, quad forall t in bb(R) . $

]
这个定理非常重要，因为它把一个关于分布函数的复杂收敛问题，转化成了关于特征函数的简单逐点收敛问题。

---

- 分布密度 $p_X \( x \)$ 可以看作一个"无限维向量"；

- 特征函数 $phi_X \( t \) = integral e^(i t x) p_X \( x \) thin d x$
  是它在频率 $t$ 方向上的投影（内积）；

- 那么，一个分布序列 ${ X_n }$ 弱收敛于
  $X$，意味着它们的"形状"在大部分地方趋于一致。 而特征函数
  $phi_n \( t \)$ 就像是这些分布在这个"频域空间"中各个方向上的"影子"。

---

- 如果你有一堆不同的物体，它们在所有方向上的影子都逐渐变得一样，那这些物体本身也一定越来越接近。

- 如果每个频率 $t$ 上的"投影" $phi_n \( t \)$ 都趋于 $phi \( t \)$，
  说明这些分布的"频域成分"在逐个匹配，
  因此它们的"整体结构"也在趋近于同一个分布。

- 反之，如果两个分布不一样，那至少存在某个频率
  $t$，使得它们的投影明显不同------所以特征函数不会处处收敛。

== 用特征函数证明正态分布的可加性
<用特征函数证明正态分布的可加性>
我们现在来看一个经典例子：独立正态随机变量之和仍然是正态分布。

设
$X tilde.op N \( mu_1 \, sigma_1^2 \)$，$Y tilde.op N \( mu_2 \, sigma_2^2 \)$，且
$X$ 与 $Y$ 独立。我们要证明：
$ X + Y tilde.op N \( mu_1 + mu_2 \, sigma_1^2 + sigma_2^2 \) . $

#strong[关键观察：] 如果我们知道正态分布的特征函数，证明会变得非常简单。

事实上，可以证明（详见书上第193页）：
$ phi_X \( t \) = bb(E) \[ e^(i t X) \] = e^(i mu_1 t - 1 / 2 sigma_1^2 t^2) \, quad phi_Y \( t \) = bb(E) \[ e^(i t Y) \] = e^(i mu_2 t - 1 / 2 sigma_2^2 t^2) . $

因为 $X$ 与 $Y$ 独立，所以 $e^(i t X)$ 与 $e^(i t Y)$ 独立，于是
$ phi_(X + Y) \( t \) = bb(E) \[ e^(i t \( X + Y \)) \] = bb(E) \[ e^(i t X) \] dot.op bb(E) \[ e^(i t Y) \] = phi_X \( t \) dot.op phi_Y \( t \) \, $

从而
$ phi_(X + Y) \( t \) = e^(i mu_1 t - 1 / 2 sigma_1^2 t^2) dot.op e^(i mu_2 t - 1 / 2 sigma_2^2 t^2) = e^(i \( mu_1 + mu_2 \) t - 1 / 2 \( sigma_1^2 + sigma_2^2 \) t^2) . $

这个表达式恰好是参数为
$mu = mu_1 + mu_2$、$sigma^2 = sigma_1^2 + sigma_2^2$
的正态分布的特征函数。

再由#strong[特征函数的唯一性定理]，我们得到结论：
$ X + Y tilde.op N \( mu_1 + mu_2 \, sigma_1^2 + sigma_2^2 \) . $

= 中心极限定理
== 林德伯格-莱维中心极限定理
<林德伯格莱维中心极限定理>
#strong[第212页定理 4.4.1 ：] 设 ${ X_1 \, X_2 \, dots.h }$
是独立同分布的随机变量序列，且满足：
$ bb(E) \[ X_i \] = mu \, quad upright(V a r) \( X_i \) = sigma^2 > 0 . $
记标准化和为
$ Y_n^(*) = frac(X_1 + X_2 + dots.h.c + X_n - n mu, sigma sqrt(n)) \, $
则对任意实数 $y$，有
$ lim_(n arrow.r oo) P \( Y_n^(*) lt.eq y \) = Phi \( y \) = 1 / sqrt(2 pi) integral_(- oo)^y e^(- t^2 \/ 2) thin d t \, $
其中 $Phi \( y \)$ 是标准正态分布的分布函数。

---

这个定理告诉我们：
如果一大批随机变量是独立同分布的，无论它们服从哪个分布，只要它们有有限均值和方差，那么它们的"平均值"会长得像正态分布。

换句话说：大量独立随机因素的叠加效应，最终呈现出一种普遍的规律性——正态分布。

#strong[为什么这是重要的？]
因为正态分布在自然界和社会现象中无处不在。统计学、机器学习、质量控制、金融建模等领域都依赖于这一规律。
即使我们不知道每个个体的具体分布，只要样本足够大，就可以用正态分布来近似分析。

---

== 证明思路
<证明思路>
我们要证明：$Y_n^(*)$
的分布弱收敛于标准正态分布。根据特征函数的连续性定理，只需证明其特征函数收敛于标准正态分布的特征函数
$e^(- t^2 \/ 2)$.

为此，我们要研究标准化和
$ Y_n^(*) = frac(X_1 + X_2 + dots.h.c + X_n - n mu, sigma sqrt(n)) = frac(1, sigma sqrt(n)) sum_(k = 1)^n \( X_k - mu \) . $
记 $Z_k = X_k - mu$，则
$bb(E) \[ Z_k \] = 0$，$upright(V a r) \( Z_k \) = sigma^2$，且
$Z_1 \, dots.h \, Z_n$ 仍独立同分布。

于是
$ Y_n^(*) = frac(1, sigma sqrt(n)) \( Z_1 + Z_2 + dots.h.c + Z_n \) . $

根据特征函数的定义，
$ phi_(Y_n^(*)) \( t \) = bb(E) [e^(i t Y_n^(*))] = bb(E)  [exp  (i t dot.op frac(1, sigma sqrt(n)) sum_(k = 1)^n Z_k)] . $

利用指数函数的性质
$exp \( a + b \) = exp \( a \) exp \( b \)$，可将求和移到乘积中：
$ = bb(E)  [product_(k = 1)^n exp  (i dot.op frac(t, sigma sqrt(n)) dot.op Z_k)] . $

由于 $Z_1 \, dots.h \, Z_n$
相互独立，而独立随机变量的的乘积的期望等于它们的期望的乘积，所以
$ = product_(k = 1)^n bb(E)  [exp  (i dot.op frac(t, sigma sqrt(n)) dot.op Z_k)] . $

又因为所有 $Z_k$ 同分布，所以它们的特征函数完全相同。设
$Z = X_1 - mu$，其特征函数为
$ phi_Z \( s \) = bb(E) \[ e^(i s Z) \] \, $ 那么
$ phi_Z (frac(t, sigma sqrt(n))) = bb(E) [exp (i dot.op frac(t, sigma sqrt(n)) dot.op Z)] \, $
可见 $phi_(Y_n^(*)) \( t \)$ 的表达式中每一项都是
$phi_Z  (frac(t, sigma sqrt(n)))$，共 $n$ 个相乘，因而
$ phi_(Y_n^(*)) \( t \) = [phi_Z  (frac(t, sigma sqrt(n)))]^n . $

这就是 $Y_n^(*)$ 的特征函数的精确表达式。接下来，我们只需研究当
$n arrow.r oo$ 时，这个表达式是否趋于标准正态分布的特征函数
$e^(- t^2 \/ 2)$.

现在考虑 $phi_Z \( t \)$ 在 $t = 0$
附近的泰勒展开。这里需要用到一个关键事实（书上第194页的性质）：
$ phi'_Z \( 0 \) = i bb(E) \[ Z \] = 0 \, quad phi''_Z \( 0 \) = - upright(V a r) \( Z \) = sigma ^ 2. $
由此可见
$ phi_Z \( t \) = 1 + i dot.op 0 dot.op t - 1 / 2 sigma^2 t^2 + o \( t^2 \) = 1 - 1 / 2 sigma^2 t^2 + o \( t^2 \) . $

代入得
$ phi_Z (frac(t, sigma sqrt(n))) = 1 - 1 / 2 dot.op t^2 / n + o (t^2 / n) \, $
于是
$ phi_(Y_n^(*)) \( t \) = [1 - frac(t^2, 2 n) + o (t^2 / n)]^n arrow.r e^(- t^2 \/ 2) \, quad n arrow.r oo . $

我们来仔细看看这个极限。

注意：当 $n arrow.r oo$ 时， $t$ 是固定为某个数的，所以 $t$ 是个常数。

这里的 $o  (t^2 / n)$ 表示：当 $n arrow.r oo$ 时，这一项比
$t^2 / n$ 更快地趋于 $0$。换句话说，存在一个函数 $epsilon_n$，满足
$epsilon_n arrow.r 0$（当 $n arrow.r oo$），使得
$ phi_(Y_n^(*)) \( t \) = [1 - frac(t^2, 2 n) + frac(epsilon_n dot.op t^2, n)]^n \, quad upright("其中 ") epsilon_n arrow.r 0 . $

于是括号内的部分可以写成
$ 1 + frac(- t^2 / 2 + epsilon_n dot.op t^2, n) . $

回忆我们在微积分中学过的一个重要极限：
$ lim_(n arrow.r oo) (1 + a / n)^n = e^a \, quad upright("对任意常数 ") a . $

这里虽然分子中多了一个趋于 0 的 $epsilon_n$，但它不影响极限结果：因为当
$n$ 很大时，$- t^2 / 2 + epsilon_n dot.op t ^ 2$ 非常接近 $- t^2 / 2$，所以
$ (1 + frac(- t^2 / 2 + epsilon_n dot.op t^2, n))^n arrow.r e^(- t^2 \/ 2) . $

因此，我们有
$ lim_(n arrow.r oo) phi_(Y_n^(*)) \( t \) = e^(- t^2 \/ 2) \, $
而右边正是标准正态分布 $N \( 0 \, 1 \)$ 的特征函数。

由特征函数的唯一性定理，可知 $Y_n^(*)$
的分布弱收敛于标准正态分布。证毕。

== 生活启示：从混乱中看到秩序
<生活启示从混乱中看到秩序>
中心极限定理并不真的要求各随机变量同分布，其实只要求它们独立且没有哪一个特别突出。例如书上第219页的定理。

中心极限定理告诉我们：
世界看似杂乱无章，但当大量独立事件叠加时，总会涌现出一种稳定的规律。

---

- 一个人的情绪波动可能不可预测，但一个群体的心理趋势却往往呈现稳定模式；

- 一个班级几十名同学各自有不同学习习惯、作息、天赋，单个学生的成绩分布可能偏斜甚至奇怪，但全班总分或平均分的分布却往往呈现"钟形曲线"；

- 社会舆论由无数个体观点构成，但整体走向常表现出某种"共识性"；
---
- 单次决策可能受情绪影响，但长期来看，理性与经验会逐渐显现；

- 你很难预测自己某一次做事的表现------可能状态好，可能粗心，也可能受队友或环境影响。但只要你坚持做很多次，你的平均表现就会越来越稳定，围绕在你的真实能力附近小幅波动：特别出色或特别糟糕的情况都很少见。
---
因此，当我们面对不确定性时，不必过分焦虑：只要系统足够大、因素足够多、相互之间关联不强，最终结果就会趋向于可预测的"常态"。

这也提醒我们：在做判断或决策时，不要被个别极端事件（比如一次考砸、一次运气好）过度影响，而应关注长期趋势和整体表现——因为"平均"本身就有力量，而"常态"终将显现。

*宠辱不惊，看庭前花开花落；去留无意，望天上云卷云舒。*

*#h(1fr) ——陈继儒《小窗幽记》*

